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tatsbestimmung auf der Basis eines Vergleichs von Si- 
gnalintensitaten des zu bewertenden Sprachsignals mit 
einem Referenzsprachsignal bewerten spektrale Verfor- 
mungen des zu bewertenden Sprachsignals nicht opti- 
mal, so daR die Qualitatsbewertung unsicher ist. Des wei- 
teren werden durch die Integration der Signalintensitat in 
Frequenzbandern mit konstanten Bandgrenzen bestimm- 
te Verfalschungen des zu bewertenden Sprachsignals, 
wie sie z. B. durch Codiersysteme niederer Bitraten her- 
vorgerufen werden; fehlerhaft bewertet. 
Um die Aussagesicherheit der berechneten Qualitats- 
kennwerte zu erhohen, werden zum einen Verformungen 
der mittleren spektralen Einhullenden vor einem Ver- 
gleich der spektralen Eigenschaften mit einer Wichtungs- 
funktion Wjlf) weitgehend korrigiert. Zum anderen wer- 
den diefesten Bandgrenzen zur Integration der spektralen 
Leistungsdichte aufgehoben und statt dessen in einem 
vorgegebenen Optimierungsbereich Bandgrenzen ge- 
sucht, bei denen die sich ergebenden spektralen Intensi- 
tatsabbildungen von zu bewertenden Sprachsignal und 
Referenzsprachsignal eine maximale Ahnlichkeit aufwei- 
sen. 

Die beschriebenen Losungen konnen bekannte Verfahren 
erweitern und zu deren Struktur hinzugcfugt werden. 
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Beschreibung 

Vorbemerkung 

Die Erfindung beziehl sich auf ein Verfahren zur instru- 
meniellen ("objektiven") Sprachqualitatsbestimmung, bei 
deni durch Vergleich von Eigenschafien eines zu bewenen- 
den Sprachsignals mit Hgenschaften eines Referenzsprach- 
signals (ungestortes Signal) Kennwerte zur Bestimmung der 
Sprachqualitat (Sprachgute) abgeleitet werden. 

Sprachqualilatsbestimmungen von Sprachsignalen wer- 
den in der Regel mittels auditiver ("subjektiver") Untersu- 
chunucn mil Versuchspersonen vorgenommen. 

Das Ziel von instrumentellen ("objektiven") Verfahren 
zur Sprachqualitatsbesdinmung ist es, aus Eigenschafien 
dcs /u bewcrtenden Sprachsignals mittels geeigneter Re- 
chcn verfahren Kennwerie zu ermitteln, die die Sprachquali- 
lai dcs zu bcwcricndcn Sprachsignals bcschrcibcn, ohnc auf 
Urieile von Versuchspersonen zuruckgreifen zu miissen. 

Die hcrechncicn Kennwerie und das zugrunde gelegte 
Verfahren zur insirunieniellen Sprachqualitalsbestiinmung 
gchcn als ancrkannl, wenn eine hohe Korrelalion zu Ergeb- 
nisscn audilivcr Vergleichsuntersuchungen erreicht wird. 
Die niincls audilivcr Untersuchungen gewonnenen Sprach- 
qualiiiiiswerlc slellen soiuil die Zielwerte dar, die durch in- 
sirumcnicllc Verfahren erreichi werden sollen. 

Stand der Technik 



Bekannle Verfahren zur insu-umeniellen Sprachqualitats- 
bestiininung beruhen auf .einem Vergleich eines Referenz- 
sprachsignals mit dem zu bewertenden Sprachsignal. Dabei 
werden das Referenzsprachsignal und das zu bewerrende^ 
Sprachsignal in kurze 2feitabschnitte segmentiert. In diesen 
Segnienlen werden die spektralen Eigenschafien der beiden 
Signale verglichen. 

Fur die Berechnung der spektralen Kurzzeiteigenschaften 
komnien verschiedene Ansatze und Modelle zur Anwen- 
dung. In der Regel erfplgt die Berechnung der Signalintensi- 
lai in Frequenzbandern, deren Breite mit zunehmender Mit- 
tcnfrequenz groBer wird. Beispiele fur solche Frequenzban- 
der sind die bekannien Terzbander oder Frequenzgruppen 
nach Zwicker (veroffentlicht in Zwicker, E.: "Psychoaku- 
stik", Berlin: Springer- Verlag, 19S2). 

Die derart berechnete spektrale Intensitatsabbildung fur 
jeden betrachtelen Zeilabschnitt laBl sich als Reihe von Zah- 
lenwerten auffassen, in der die Anzahl der Einzelwerte der 
Anzahl der verwendeten Frequenzbander entspricht, die 
Zahlenwerte selbst die berechneten Intensitatswerte darstel- 
len und ein fortlaufender Index der Frequenzbander die Rei- 
henfolge der Zahlenwerte beschreibt. 

Bei den derzeit bekannien Verfahren zur insurumenrellen 
Sprachqualiiaisbestimmung werden die Grenzen der be- 
nulzten Frequenzbander auf der Frequenzachse konslant ge- 
hallen. 

In jedem beurachieien Zeitsegmeni werden die berechne- 
ten Intensilaten von zu bewertenden Sprachsignal und Refe- 
renzsprachsignal in jedem Band miteinander verglichen. 
Die Differenz beider Wene, bzw. die Ahnlichkeil der beiden 
entstehenden speku^en Inlensiiatsabbildungen, slellt die 
Grundlage fur die Berechnung eines Qualitatswertes dar 

Solche Verfahren wurden insbesondere fur die quahlative 
Beweriung der Sprache in der Telefonieanwendung eniwik- 
kclt. Beispiele hicrfiir sind die Vcroffcntlichungcn: 
"A perceptual speech-quality measure based on a psycha- 
cousiic sound representation" (Beerends, J. G.: Stemerdink. 
J. A., J. Audio Eng. Soc, 42 (1994) 3, S. 115-123). 



"Auditory distonion measure for speech coding" OVang, S. 
Sekey, A.; Gersho, A.: IEEE Proc. Int. Confacoust., speech 
and signalprocessing (1991), S. 493-496). 

Der der7.eit giiltige TTU-T Standard P. 861 heschreibi. 
5 ebenfalls ein derartiges Verfahren: "Objective quality mea- 
surement of telephone-band speech codecs" (ITU-T Rec. 
P.861, Genf 1996). 

Nachieile bekannier insirunientellcr SprachquaUtatsraeB- 
10 verfahren 

' Der Einsaiz von bekannien Verfahren zur instrumentellen 
Sprachqualitatsbestimmung scheitert an der Zuverlassigkeit 
der berechneten Qualitatswerte fur bestimmte zu bewer- 
15 lende Signaleigenschaften. Insbesondere bei Beeintrachti- 
gungen im zu bewertenden Sprachsignal, wie sie z. B. durch 
Sprachcodierverfahren mil niedrigen Bitraten oder Kombi- 
nalioncn von unlcrschicdlichcn Storungcn hcrvorgcrufcn 
werden, liefern derzeit bekannle Verfahren nur unsichere 
20 Qualitatswerte. 

Nachteilig bei den heute bekannien Verfahren isl in sol- 
chen Fallen, daB bei einem Vergleich zwischen dem zu be- 
wertenden Sprachsignal mit einem Referenzsprachsignal 
Unlerschiede zwischen beiden Signalabschnilien in der ge- 
25 wahllen Darslellungsebene in den zu berechnenden Quali- 
latskennwerl einflieBen, die nichr oder kaum zu einer - auch 
im audiliven Test walimehmbaren - qualilativen Beein- 
trachtigung fiihren. 

Im Rahmen der hier betrachtelen Sprachiiberiragung in 
30 Telefonanwendungen iragen Frequenzbandbegrenzungen 
und spektrale Verformungen des zu bewertenden Sprachsi- 
gnals (z. B. hervorgerufen durch Filtereigensch'dften dcs Te- 
lefongerales oder des Ubertragungskanals) nui begrenzt zu 
einer empfundenen qualit^tiven Beeintrachligung bei. 
.35 Um diese Mangel teilweise zu vermeiden, wird in einem 
anderen Ansalz versuchl, die linearen Verzerrungen (Fre- 
quenzgang) durch ein Korrekturfiller bzw. eine Leislungs- 
ubertragungsfunktion zu kompensieren (verotfenllichl in: 
"A new approach to objective quality-measures based on at- 
40 uibute-maiching", Halka, U.; Heute, U., Speech communi- 
cation, 11 (1992) 1, S. 15-30). Die Anwendung dieses Ver- 
fahrens istjedoch bei nichtUnearer und zeidnvarianter Uber- 
tragung nachteilig, da die so berechnete Kompensalions- 
funktion nicht mehr ausschheBUch die spektralen Verfor- 
45 mungen des zu bewertenden Signals beschreibt. 

Verschiebungcn spektraler Kurzzeit-Maxima CTormant- 
verschiebungen") im zu teslenden Signal gegenuber dem 
Referenzsprachsignal, z. B. verursacht durch Codiersysteme 
mit niedriger Bitrate, fuhren bei bekemnten Verfahren zu 
50 groBen Unterschieden in den spektralen Inlensiiatsabbildun- 
gen und gehen damit stark in den berechneten Quaiitatswert 
ein. Untersuchungen haben ergeben, daB in einer audidven 
Sprachquahtatsuntersuchung diese Verschiebungen speku-a- 
ler Kurzzeit-Maxima jedoch nur begrenzlen EinfluB auf das 
55 Qualitatsurteil haben. 



Aufgabe 

Die Erfindung slellt sich die Aufgabe, den EinfluB von 
60 spekuralen Begrenzungen und Verfomiungen des zu bewer- 
tenden Sprachsignals sowie von Verschiebungen spektraler 
Kurzzeit-Maxima vor dem Vergleich der spekuralen Eigen- 
schafien eines zu teslenden Signals mil einem Referenz- 
sprachsignal und der Berechnung eines Qualitatswertes in 
65 instrumentellen Verfahren zu rcduzicrcn. 
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Losung 



Ausfuhrungsbeispiel 



Im Gegensatz zu bekannien Ansatzen wird in der hier be- 
schriebenen Hrfindung eine spektrale Wichtungsfunkrion 
generiert, die auf mittleren spekiralen Einhiillenden, z. B, 
der mittleren spektralen Leistungsdichte, von zu bewerten- 
dem Sprachsignal und Referenzsprachsignal beruht. Dies 
ennoglicht den Einsatz des Verfahrens ebenfalls bei nichlli- 
nearer und zeitvaiianter Ubenragung. 

Die spektrale Wichtungsfunktion wird aus den Quotien- 
ten der Stutzwerte der mittleren spektralen Leistungsdichte 
des zu bewerlenden Signals PhiyCO und der des Eingangssi- 
gnals des Ubertragungssystems Phix(0 derart. berechnet, 
daB die Wiclitungsfunktion iiber 

WT(f) = a(f) ' (PhiY(0/Phix(0) 

zu bcschrcibcn ist. Die Bcwcrtungsfunktion a(f) kann die 
Wichtungsfunktion WjCO an iiber den Wirkungsbereich un- 
terschiedlich gewichten, sie ist iin einfachsten Falle kon- 
stant 1 . 

Die derart berechnete spektrale Wichtungsfunktion Wt(0 
nahert. die mittleren spektralen Einhullenden von zu bewer- 
tenden Sprachsignal und Referenzsprachsignal einander an, 
so daB Unlerschiede der beiden spekiralen Einhullenden nur 
noch verniindert. in den berechneten Qualitatswert. einflie- 
fien. 

Die speku-ale Wichtungsfunktion W-KO kann zum einen 
auf das Referenzsprachsignal angewendei werden. Dabei 
wird das Referenzsprachsignal in seiner mittleren spektralen 
Leistungsdichte dem zu bewertenden Signal angenahert 

(Fig. 2a). ' 

Zum anderen kann die spektrale Wichtungsfunktion in- 
vertiert auf das zu bewertende Signal angewendet werden. 
Dieses wird dadurch entzerrt. und, hinsichdich seiner mittle- 
ren spektralen Leistungsdichte, an das Referenzsprachsignal 
angenahert (Fig. 2b). 

Ein weiterer Teil der Erfindung bezieht sich auf die Kor- 
rektur von Verschiebungen spektraler Kurzzeit-Maxima, die 
durch die Ubertragungssysteme verursacht werden. 

Die Intensitat wird fiir jeden Zeitabschnitt in Frequenz- 
bandem integriert. Resultac ist eine Reihe von Intensitats- 
werten fur jede spektrale Darstellung eines Signalabschnitts, 
wobei jeder Einzelwerl die Intensitat in einem Frequenz- 
bandreprasentiert . Die Verschiebungen spektraler Kurzzeit- 
Maxima konnen hierbei zu abweichenden berechneten In- 
tensitaten in den Frequenzbandem von Referenzsprachsi- 
gnal und zu bewerlenden Sprachsignal fUhren. 

Diese Abweichungen in den spektralen Intensitatsabbil- 
dungen - verursacht Verschiebungen spektraler Kurzzeit- 
Maxima - konnen durch eine variable Anordnung der Fre- 
quenzbander auf der Frequenzachse reduziert werden. Ln 
Gegensatz zu den konstanten Bandgrenzen bei bekannten 
Verfahren werden die Bandgrenzen auf der Frequenzachse 
verschoben. Die Zahl der Frequenzbander und deren Index 
bleibt aber konstant. In einer Opumierungsschleife werden 
dann diejenigen Bandgrenzen akzeplierl, bei denen die bei- 
den entstehenden spektralen Abbildungen von zu bewerten- 
den Sprachsignal und Referenzsprachsignal maximale Ahn- 
lichkeit aufweisen bzw. deren Abstand minimal ist. Diese 
Optiniierung wird fur alle Bander in alien beurachteten Zeit- 
segmenten durchgefiihrt. 

Der Einsatz variabler Bandgrenzen zur Berechnung der 
spektralen Intensitatsabbildung ist nicht nur auf das Signal, 
in dcm auch die bcschricbcnc spektrale Wichtungsfunktion 
WT(f) zum Einsatz kommt, beschrankt, sondem kann auch 
auf das jeweils andere Signal und sogar auf beide Signale 
angewendei werden. (vgl. Fig. 2a und 2b). 
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Ein spezielles Ausfuhrungsbeispiel zeigt eine Realisie- 
rung gemaR Fig. 3, die als TOSQA (Telecomnnunication 
Objecdve Speech Quality Assessment) bezeichnet wird. 
Hierbei erfolgt eine erweiterte Vorverarbeitung des Refe- 
renzsprachsignals. 

In Spezifikation der allgemeinen Realisierungen nach 
Fig. 2a und 2b werden hier Sprachpausen mittels eines 
Sprachpausenerkenners erkannt und gehen nicht in das Qua- 
litatsniaB ein. Ebenfalls erfolgt eine Filterung von Referenz- 
isprachsignal und zu bewertendem Sprachsignal mit einem 
BandpaB 300 . . . 3400 Hz sowie eine Filterung auf den Fre- 
quenzgang eines Telefonhandapparates. Die Integration der 
spektralen Leistungsdichte erfolgt in Frequenzgruppen, die 
die Basis fur die Berechnung der spezifischen Lautheil dar- 
stellen. 

Die Integration in Frequenzgruppen erfolgt jcdoch nicht 
in festen Frequenzgruppengrenzen, sondem mit den in die- 
ser Erfindung beschriebenen variablen Frequenzgruppen- 
grenzen. Die berechneten Signalleistungen in den so modifi- 
zierten Frequenzgruppen bilden die Basis fiir die Intensitats- 
berechnung. Hier wurde auf ein Modell zur Berechnung der 
spezifischen Lautheit nach Zwicker, einer gehorrichtigen In- 
Lensilalsabbildung, zuruckgegrilTen (verolTentlichl in Zwik- 
ker, E.: "Psychoakustik", BerUn: Springer- Verlag, 1982). 

Die berechneten Lautheitsmuster werden in Erganzung 
des allgemeinen Ansatzes noch durch eine Fehlerbewer- 
lungsfunktion erganzt. Der berechnete Qualitatswert wird 
uber einen Mittelwert der Korreladonskoeffizienten der spe- 
zifischen Lautheiten fur jedes beUrachtete kurze Zeitsegment 
uber die Zahl der ausgewerteten Sprachseginente gebildet. 

Patentanspriiche 
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1. Verfahren zur instrumentellen Sprachqualitatsbe- 
sdmmung, bei dem durch Vergleich von spekiralen 
Kurzzeiteigenschaften eines zu bewertenden Sprachsi- 
gnals mit einem Referenzsprachsignal Kennwerte zur 
Bestimmung der Sprachqualitat berechnet werden, da- 
durch gekennzeichnet, daB vor dem Vergleich der Ei- 
genschaften der Sprachsignale, Unlerschiede in mitde- 
ren spektralen Einhullenden verringert werden, indem 
aus diesen zuerst eine spektrale Wichtungsfunktion be- 
rechnet wird, mil der die speku-alen Kurzzeiteigen- 
schaften der Sprachsignale in alien betrachteten Zeit- 
segmenten gewichtet werden, so daB die Unterschiede 
in den mitderen spektralen Einhullenden dadurch nur 
bcgrenzt in den zu berechnenden Qualitatskennwert 
einflieBen, und daB fur die Berechnung der Signalin- 
tensitat die Grenzen der benutzten Frequenzbander va- 
riabel gestaltet werden, so daB fiir jeden betrachteten 
Signalabschnitt in jeweils alien ausgewerteten Fre- 
quenzbandem die berechneten Intensitaten von Refe- 
renzsprachsignal und zu bewertendem Signal zueinan- 
der moglichst geringe Unlerschiede aufweisen. 

2. Verfahren nach Anspruch 1, dadurch gekennzeich- 
net, daB zuerst die mittleren spektralen Einhullenden 
von zu bewertenden Sprachsignal und Referenzsprach- 
signal in Form eines mittleren Leistungsdichtespek- 
trums berechnet werden und aus dem Quodenten bei- 
der Spekuren eine spektrale Wichtungsfunktion Wt(0 
berechnet wird, mil der die Kurzzeit-Leistungsdichtc- 
spektren des Referenzsprachsignals vor der Berech- 
nung cincs Qualitatskcnnwcrtcs gewichtet werden. 

3. Verfahren nach Anspruch 1 und 2, dadurch gekenn- 
zeichnet. daB die zu berechnende Wichtungsfunktion 
WtCO nur aus Teilbereichen der berechneten mittleren 
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spektralen Einhiillenden von zu bewerienden Sprachsi- 
gnal und Referenzsprachsignal berechnet wird und da- 
mit die Unterschiede in mittleren spektralen Einhullen- 
den zwischen beiden Signalen nur in spektralen Teilbe- 
reichen verringert werden. ^ 
4. Verfahren nach Anspruch 1 bis 3, dadurch gekenn- 
zeichnei, daB vor Berechnung der Qualitatskennwerte 
eine Integration der Signalintensitat fur jeden ausge- 
werteten kurzen Zeitabschnitt in Frequenzgruppen er- 
folgt, wobei dieGrenzen der Frequenzgruppen auf der 10 
Frequenzachse variabel sind, aber die Breite der Fre- 
quenzgruppen auf der Tonheitskala konstani bleibt, 
und daB aus den Signalintensitaten in den Frequenz- 
gruppen eine Berechnung der spezifischen Lautheit er- 
folgi, wobei die Grenzen der Frequenzgruppen benutzt 15 
werden, bei denen die berechneten Unterschiede in der 
spezifischen Lautheit zwischen dem zu bewertenden 
Signal und dcin Referenzsprachsignal im jcwciis bc- 
trachteten Band und/eiisegnient den geringsten Unter- 

Oft 

schied autwciscn. 

5. Verfahren nach Anspruch 1 bis 4, dadurch crekenn- 
zeichnet, daB der Qualiiaiskennwert aus der Ahnlich- 
keil der spektralen Darstellungen in jedem betrachteten 
ZeitabschniH bercchnci wird, wobei die Ahnlichkeit ei- 
nen iiber alle beirachtcicn Zciiabschniite geiniUeUen 25 
Korrelaiionskocffizienicn zwischen der speku-alen 
Darstellung des zu bewerienden Sprachsignals und der 
spektralen Darstellung des Rclercnzsprachsignals im 
jeweiligen Zeilsegineni darsiellL 

6. Verfahren nach Anspruch 5, dadurch gekennzeich- 30 
net, daB der KorrelalionskoelTizient zwischen der spek- 
tralen Darstellung des zu bewertenden Sprachsignals 
und der spektralen Darstellung des Referenzsprachsi- 
gnals im jeweiligen Zcilsegment nur von einem Teilbe- 
reich der spektralen Darstellung berechnet wird, d. h. 35 
fur die Berechnung des Qualitatskennwertes nicht alle 
berechneten Spekuralwerte berucksichtigt werden. 
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